使用深度学习的图像的手写词识别是一个有希望性能的活跃研究区域。IT实际情况,由于安全原因,可能需要在压缩域中处理手写图像。然而,对于压缩图像的处理仍然非常有限的深度学习的利用。通过在深度学习中的最新进展中,在压缩域中处理文档图像的需要,我们提出了一个HWRCNET模型,用于JPEG压缩域中的手写字识别。所提出的模型结合了基于卷积神经网络(CNN)和双向长短期存储器(BILSTM)的经常性神经网络(RNN)。基本上,我们使用压缩域图像训练模型,并遵守89.05%字识别精度和13.37%的字符错误率非常有吸引力的性能。
translated by 谷歌翻译
在本文中,提出了一种在高阶导数空间中的本地图案描述符用于面部识别。所提出的局部定向梯度模式(LDGP)是通过在四个不同的方向上编码参考像素的高阶导数之间的关系来计算的1D局部微图案。所提出的描述符识别来自四个不同方向的引用像素的高阶导数之间的关系,以计算对应于本地特征的微图案。所提出的描述符显着降低了微图案的长度,从而降低了提取时间和匹配时间,同时保持识别率。在基准数据库中进行的广泛实验的结果,延伸耶鲁B和CMU-PIE的基准数据库,表明所提出的描述符显着降低了提取以及匹配时间,同时识别率几乎类似于现有技术的现有技术。
translated by 谷歌翻译
特征描述是专家系统和机器学习中最常见的区域之一。有效编码图像是准确匹配的必要要求。这些编码方案在识别和检索系统中发挥着重要作用。面部识别系统应该有效地在系统内在和外在变化下准确地识别个体。这些系统中使用的模板或描述符编码图像的本地附近的像素的空间关系。使用这些手工制作描述符编码的功能应该是稳健的抵抗诸如;照明,背景,姿势和表达。在本文中,提出了一种新型手工制作的级联非对称局部图案(CALP),用于检索和识别面部图像。所提出的描述符在水平和垂直方向上唯一地对相邻像素之间的关系进行唯一编码关系。所提出的编码方案具有最佳特征长度,并且在面部图像中的环境和生理变化下的准确性显着提高。艺术手工制作描述符的状态即;将LBP,LDGP,CSLBP,SLBP和CSLTP与最具挑战性数据集上的所提出的描述符进行比较。 Caltech-Face,LFW和Casia-Face-V5。结果分析表明,在表情,背景,姿势和照明的不受控制的变化下,所提出的描述符优于现有技术。
translated by 谷歌翻译
本文提出了一种新颖的手工制作的本地四重模式(LQPAT),用于面部图像识别和检索。大多数现有的手工制作描述符在本地邻域中仅编码有限数量的像素。在不受约束的环境下,这些描述符的性能往往会急剧降级。增加本地邻居的主要问题是,它还增加了描述符的特征长度。所提出的描述符尝试通过定义具有最佳特征长度的有效编码结构来克服这些问题。所提出的描述符在二次空间中的邻居中的关系编码。从本地关系计算两个微图案以形成描述符。所提出的描述符的检索和识别精度已经与替补标记数据库上的艺术手工制作描述符的状态进行了比较; Caltech-Face,LFW,Color-Feret和Casia-Face-V5。结果分析表明,所提出的描述符在姿势,照明,背景和表达式的不受控制的变化下执行良好。
translated by 谷歌翻译
面部特征被定义为面部图像的像素中存在的局部关系。手工制作的描述符确定内核定义的本地邻域中的像素的关系。内核是一种二维矩阵,它在面部图像上移动。内核捕获的具有有限数量的像素的独特信息实现了在受约束环境下拍摄的面部图像上的令人满意的识别和检索精度(光,姿势,表达式和背景的受控变化)。为了在不受约束的环境下实现类似的准确性,必须增加本地社区,以便编码更多像素。增加本地邻域也增加了描述符的特征长度。在本文中,我们提出了一种手工制作的描述符,即中心对称四重奏模式(CSQP),其在结构上对称,并在四重空间中对面部不对称进行编码。所提出的描述符有效地编码具有最佳二进制位数的较大邻域。已经示出了使用平均熵,计算与所提出的描述符编码的特征图像,CSQP与艺术描述符的状态相比捕获更有意义的信息。将所提出的描述符的检索和识别精度与在台式标记数据库上的艺术手工描述符(CSLBP,CSLTP,LDP,LBP,SLBP和LDGP)的状态进行了比较; LFW,Color-Feret和Casia-Face-V5。结果分析表明,所提出的描述符在受控和姿势,照明,背景和表达中的不受控制的变化下执行良好。
translated by 谷歌翻译
在面部识别中使用的本地描述符是稳健的,因为这些描述符在不同的姿势,照明和照明条件下表现良好。这些描述符的准确性取决于将面部图像的本地邻域中存在的关系映射到微结构中的关系。在本文中,提出了一种局部梯度六到模式(LGHP),其识别在不同衍生方向上的不同距离处的参考像素和其相邻像素之间的关系。歧视信息存在于局部邻域以及不同的衍生方向上。所提出的描述符有效地将这些关系改变为判别具有最佳精度的二元微型图像。所提出的描述符的识别和检索性能已经与最先进的描述符相比,即最具挑战性和基准面部图像数据库的LDP和LVP,即裁剪延伸的Yale-B,CMU-Pie,Color-Feret和LFW。与最先进的描述符相比,所提出的描述符具有更好的识别以及检索速率。
translated by 谷歌翻译
在本文中,提出了R-Theta本地邻域模式(RTLNP),用于面部图像检索。 RTLNP以不同的角度和径向宽度在参考像素的本地附近的像素中利用关系。所提出的编码方案将本地邻域分成相等角度宽度的扇区。这些扇区再次分为两个径向宽度的子区。这些两个子区的平均灰度值被编码以生成微图案。已经评估了所提出的描述符的性能,并将结果与​​艺术描述符的状态进行比较。 LBP,LTP,CSLBP,CSLTP,Sobel-LBP,LTCOP,LMEP,LDP,LTRP,MBLBP,Brint和SLBP。最具挑战性的面部受限制和无约束数据库,即; AT&T,Caria-Face-V5裁剪,LFW和彩色机构已被用于显示所提出的描述符的效率。建议的描述符也在近红外(NIR)面部数据库上进行测试; Casia Nir-Vis 2.0和Polyu-Nirfd探讨了它对NIR面部图像的潜力。与现有技术描述符相比,RTLNP的更好检索率显示了描述符的有效性
translated by 谷歌翻译
在图像理解项目中越来越多的情况下,场景图一代在电脑视觉研究中获得了很多关注,如视觉问题应答,图像标题,自动驾驶汽车,人群行为分析,活动识别等等。场景图,图像的视觉图形结构,非常有助于简化图像理解任务。在这项工作中,我们介绍了一个称为几何上下文的后处理算法,以了解视觉场景更好的几何上。我们使用该后处理算法在对象对与先前模型之间添加和改进几何关系。我们通过计算对象对之间的方向和距离来利用此上下文。我们使用知识嵌入式路由网络(KERN)作为我们的基准模型,将工作与我们的算法扩展,并显示最近最先进的算法上的可比结果。
translated by 谷歌翻译
近年来,神经网络已显示出巨大的增长,以解决许多问题。已经引入了各种类型的神经网络来处理不同类型的问题。但是,任何神经网络的主要目标是使用层层次结构将非线性可分离的输入数据转换为更线性可分离的抽象特征。这些层是线性和非线性函数的组合。最流行和常见的非线性层是激活功能(AFS),例如Logistic Sigmoid,Tanh,Relu,Elu,Swish和Mish。在本文中,在神经网络中为AFS提供了全面的概述和调查,以进行深度学习。涵盖了不同类别的AFS,例如Logistic Sigmoid和Tanh,基于RELU,基于ELU和基于学习的AFS。还指出了AFS的几种特征,例如输出范围,单调性和平滑度。在具有不同类型的数据的不同网络的18个最先进的AF中,还进行了性能比较。提出了AFS的见解,以使研究人员受益于进一步的研究和从业者在不同选择中进行选择。用于实验比较的代码发布于:\ url {https://github.com/shivram1987/activationfunctions}。
translated by 谷歌翻译
卷积神经网络(CNN)通常是使用基于随机梯度下降(SGD)优化技术训练的。现有的SGD优化器通常会遭受最小值和最低振荡的过度损失。在本文中,我们提出了一种新方法,以下内容称为Adainject,以将二阶时刻注入一阶时刻,以称为梯度下降优化器。具体而言,参数的短期更改被用作重量,以在更新规则中注入二阶时刻。 Adainject优化器控制参数更新,避免了最小值的过度换档,并减少了最小值接近的振荡。提出的方法本质上是通用的,可以与任何现有的SGD优化器集成。通过直观地解释了Anainject优化器的有效性以及一些玩具示例。我们还显示了拟议的基于注射的优化器的收敛性。此外,我们通过广泛的实验与最新的优化器(即Adaminject,diffgradinject,radaminject和Adabeliefinject在四个基准数据集中)一起描述了ADAIN方法的功效。实验中使用了不同的CNN模型。在CIFAR10数据集上使用resnext29模型,使用diffgradinject Optimizer观察到TOP-1分类错误率$ 16.54 \%$的最高提高。总体而言,我们通过提出的ADAIN方法观察到现有优化器的性能提高非常有希望。该代码可在:\ url {https://github.com/shivram1987/adainject}中获得。
translated by 谷歌翻译